強化學習 3—— 使用蒙特卡洛采樣法(MC)解決無模型預測與控制問題
一、問題引入 回顧上篇強化學習 2 —— 用動態規划求解 MDP我們使用策略迭代和價值迭代來求解MDP問題 1、策略迭代過程: 1、評估價值 (Evaluate) \[v_{i ...
一、問題引入 回顧上篇強化學習 2 —— 用動態規划求解 MDP我們使用策略迭代和價值迭代來求解MDP問題 1、策略迭代過程: 1、評估價值 (Evaluate) \[v_{i ...